当前位置: 开发笔记 > 编程语言 > 正文

Python爬虫|Python爬虫入门（二）：请求

作者： | 来源：互联网 | 2023-08-28 13:45

系列专栏目录：第一讲：Python爬虫|Python爬虫入门（一）：爬虫基本结构&简单实例第二讲：Python爬虫|Python爬虫入门（二）：请求第三讲：Python爬虫|Pyt

系列专栏目录：

第一讲：Python爬虫|Python爬虫入门（一）：爬虫基本结构&简单实例

第二讲：Python爬虫|Python爬虫入门（二）：请求

第三讲：Python爬虫|Python爬虫入门（三）：解析

第四讲：Python爬虫|Python爬虫入门（四）：储存

&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;萌萌哒的分割线&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;

这次我们入门一下爬虫的请求模块。本篇不会深入地讲请求相关的知识，主要关注在爬虫部分的相关知识，点到为止。

一、HTTP协议

我们在第一篇爬虫教程（
知乎专栏）讲到了HTTP协议这个东西。讲HTTP协议之前，我们要先讲讲我们平时浏览的网页是怎么来的。

最简单的模型是这样的：浏览器（客户端）告诉服务器说，我想请求一个网页。服务器收到消息说，好的给你。然后浏览器（客户端）收到网页，并且渲染解析成我们看到的网页。这个部分就涉及到消息怎么传送。事实上从最底层的物理层到最顶层的应用层是有很多协议的。我们只讨论最上面的应用层。最常用的应用层就是HTTP协议。

所谓HTTP协议，中文名是超文本传输协议。这是一种可靠的可以把各种各样格式的文件在互联网上传输的协议。事实上HTTP协议总共有七步，这次我们先讲一下主要的过程。HTTP协议的传输主要通过HTTP报文实现的：

1. 客户端（比如浏览器）：发送请求报文到服务器

2. 服务器：接收请求报文并处理

3. 服务器：发送响应报文给客户端

4. 客户端：处理接收到的内容。

这就是一个比较粗略的流程。我们先不讨论报文，在后面深入讲解反爬技巧的时候我们再讨论怎么在报文上下功夫。

萌萌哒的浏览器宝宝想发送请求的时候，就必须要知道服务器的名字。比如，我们需要使用bing搜索，我们就需要bing的名字：
微软必应搜索 &＃8211; 全球搜索，有问必应 (Bing) 。这个名字就是URL。（至于里面详细的过程我们也先跳过。）那么，在发送请求的时候，就需要知道URL。关于URL的语法，我们也先不深入讨论，在后面我们升级单页爬虫的时候再详细说。

另外，客户端请求的方法也是不一样的。比如，打开bing的首页的时候，是什么都不发送的。但是，你登陆知乎的时候，是需要输入账号密码的。所以这就有两种方法：一种是客户端不发送数据，一种是客户端发送数据，然后接收响应报文。前者就是get方法，后者就是post方法。这是HTTP协议最常用的两种方法。（其他方法我们先忽略不计，在实际上的使用中相对比较少。）

那么怎么判断这个过程是不是成功呢？响应报文的状态码会告诉你。大家最熟悉的就是404了。大家先记住开头的一位数字就好：2开头的是正常，3开头的是重定向（定向到另外一个店铺），4开头的是客户端异常，5开头的是服务器异常。

到这里做个小结：HTTP协议是一种在互联网上传输文件的协议，主要过程是客户端发送请求报文、服务器接收并发送响应报文、客户端接收；访问某个服务器资源需要知道它的URL；主要的HTTP请求方法有get（客户端不发数据）和post（客户端发数据）

二、Requests入门

requests的官方主页(
Requests: HTTP for Humans)就写着大大的“HTTP for human beings&＃8221;. requests也确实做的非常好，它把HTTP协议封装的非常好，非常适合爬虫等各种各样的网络编程使用。（所以赶快放弃urllib、urllib2 for Python2 and urllib for Python3 这些标准库吧~）

这里我们继续使用Python解释器。我们来顺着前面说的讲讲要怎么实现HTTP协议的过程。事实上高度封装的requests都搞定了：

import requests r1 = requests.get('http://cn.bing.com/search?q=requests') #get方法 post_data={ 'stock':'000001', 'searchkey':'', 'category':'category_ndbg_szsh;', 'pageNum':'1', 'pageSize':'', 'column':'szse_main', 'tabName':'fulltext', 'sortName':'', 'sortType':'', 'limit':'', 'seDate':'' } r2 = requests.post('http://www.cninfo.com.cn/cninfo-new/announcement/query',data=post_data) #post方法

get方法和post方法的使用如上。这里的返回值是一个对象，这个对象包括了各种各样的属性和方法，我们取几个对我们最重要的：

r1.status_code #状态码，正常是200 r1.encoding #文件编码，比如'utf-8' r1.content #文件全文 r1.json() #把请求回来的json数据转成Python字典并返回

这里特别说明一下，如果需要下载原始文件，比如下面这个例子的PDF文件，那么最好加一个参数：

r3 = requests.get('http://www.cninfo.com.cn/finalpage/2015-03-13/1200694563.PDF',stream = True) #请求 r3.raw.read() #读取文件（最好在括号里面加一下个数，只读前面几个，不然……可以试试看哈哈哈哈）

最后，我们来写一个完整的请求函数，以后我们再在这个基础上不断升级：

def getHTML(url): r = requests.get(url) return r.content if __name__=="__main__": url = 'https://zhuanlan.zhihu.com/xmucpp' html = getHTML(url) print(html)

完整到只有两行？这充分显示了requests库对HTTP协议封装的到位。

当然，还有很多很多没有讲到的。这些后续都会在爬虫教程中慢慢渗透，之后会有更系统的介绍。

如果你想了解更多关于requests的介绍，请戳：

Quickstart &＃8211; Requests 2.13.0 documentation

或者

知乎专栏

&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;萌萌哒的分割线&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;&＃8212;

非商业转载注明作者即可，商业转载请联系作者授权并支付稿费。本专栏已授权“维权骑士”网站(http://rightknights.com)对我在知乎发布文章的版权侵权行为进行追究与维权。

项目联系方式：

项目邮箱（@iGuo 的邮箱）：zhangguocpp@163.com
项目网站：http://www.xmucpp.com/（修复中）
项目GitHub：China&＃8217;s Prices Project at Xiamen Univerisity (CPP@XMU)
项目专栏：China&＃8217;s Prices Project &＃8211; 知乎专栏
项目知乎账户：@CPP
项目公众号：xmucpp2016（XMUCPP）

推荐阅读

int
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
web
WebBenchmark：强大的Web API性能测试工具

本文介绍了一款名为WebBenchmark的Web API性能测试工具，该工具不仅支持HTTP和HTTPS服务的测试，还提供了丰富的功能来帮助开发者进行高效的性能评估。 ... [详细]

蜡笔小新 2024-11-23 05:24:11
input
如何在没有提交按钮的情况下提交HTML表单？

探讨了在HTML表单中使用元素代替进行表单提交的方法。 ... [详细]

蜡笔小新 2024-11-22 17:48:42
input
Java TCP 并发处理：连接数、请求数与用户数解析

本文详细探讨了在Java TCP编程中，如何理解和测量并发连接数、请求数及并发用户数，并提供了实际应用中的测试方法和优化建议。 ... [详细]

蜡笔小新 2024-11-22 11:06:05
int
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
int
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
text
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
int
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
int
基于SSM框架的在线考试系统：随机组卷功能详解

本文深入探讨了基于SSM（Spring, Spring MVC, MyBatis）框架构建的在线考试系统中，随机组卷功能的设计与实现方法。 ... [详细]

蜡笔小新 2024-11-22 19:00:26
window
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
window
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
int
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
int
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
int
CentOS下ProFTPD的安装与配置指南

本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法，包括基本配置、安全设置及高级功能的启用。 ... [详细]

蜡笔小新 2024-11-21 09:45:56
buffer
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33

Tags | 热门标签

RankList | 热门文章

Python爬虫|Python爬虫入门（二）：请求

一 、HTTP协议

二、Requests入门

一、HTTP协议